High-Flyer Capital Management: китайският количествен фонд, превърнал се в пионер на ИИ

Един от групата китайски очаквания за ИИ, които се пробват да се изправят против сходни на OpenAI, идва от необикновен източник: количествен фонд, преобладаващ във финансовия бранш на страната бранш.

High-Flyer Capital Management, китайски количествен хедж фонд, се трансформира в почти 60 милиарда Rmb ($8 милиарда) управител на активи от стартирането си през 2015 година, употребявайки отчасти AI и логаритми за идентифициране на модели или променливи, които може да повлияе на цените на акциите.

Сега той употребява това познание и инфраструктура в мощен AI модел, който беше пуснат и който съгласно специалисти е наедно с водещите западни старания. DeepSeek-V2 може да дава отговор на въпроси, да написа код и да разсъждава.

DeepSeek коства доста по-малко от съперниците, към Rmb2 за всеки милион изходни токени — или думи, върнати на поръчка — което провокира ценова война измежду китайските снабдители на изкуствен интелект.

Седмица след старта си през май, софтуерният колос ByteDance понижи цените до едвам 0,60 Rmb за милион изходни токени. След това противникът Alibaba понижи цените за потребление на някои от своите модели с цели 97 %, а Baidu направи два от своите модели Ernie безвъзмездни.

Внедряването на новия модел, който бързо притегли хиляди китайски разработчици, акцентира по какъв начин даже с ранни водачества в генеративния AI, софтуерни колоси като Baidu и Alibaba се сблъскват с яростна конкуренция от по-пъргави новопостъпили компании. Той също по този начин сложи светлината на прожекторите върху висококонкурентната генеративна конкуренция за ИИ в Китай.

„ Пропастта сред Съединени американски щати и Китай не е толкоз огромна, колкото всички си мислят “, сподели Лиу Кингфенг, създател на китайската група за ИИ iFlytek. скорошно техническо събиране в Макао. „ В доста вертикали нашите [модели] са по-добри от техните. “

Развитието на DeepSeek се подхранва с финансиране от дъщерния му хедж фонд High-Flyer. Средствата й са възвърнали 151 %, или 13 % на годишна база, от 2017 година насам и са реализирани на разрушения вътрешен фондов пазар на Китай. Базовият показател на страната CSI 300, който наблюдава 300-те най-хубави китайски акции, се е повишил с 8 % за същия интервал от време, съгласно доставчика на проучвания Simu Paipai. ликвидация на фондовия пазар при започване на годината при тяхната високоскоростна алгоритмична търговия. Оттогава фондовете на High-Flyer изостават от CSI 300 с четири процентни пункта.

High-Flyer и DeepSeek не дадоха отговор на претенции за коментар.

Количественият фонд започва в апартамент в Чънду, където създателят Лианг Уенфън, приключил компютърни науки в университета Джъджианг, опитва с автоматизирана търговия с акции, съгласно известия в локални медии. Профилът му в регистъра на китайската асоциация за ръководство на активи споделя, че е бил на свободна процедура до 2013 година, когато основава първия си капиталов медиатор.

До 2021 година всички тактики на High-Flyer употребяват AI, съгласно мениджъра Cai Liyu, употребявайки тактики, сходни на тези, въведени от извънредно печелившия хедж фонд Renaissance Technologies. „ AI оказва помощ да се извлекат скъпи данни от солидни набори от данни, които могат да бъдат потребни за прогнозиране на цените на акциите и взимане на капиталови решения “, сподели той по време на роудшоу, което се излъчваше онлайн през същата година.

Cai сподели, че първият компютърен клъстер на компанията струваше съвсем 200 милиона Rmb и този High Flyer влага към Rmb1 милиард за построяването на втори суперкомпютърен клъстер, който щеше да се простира върху повърхност с размерите на футболно игрище. По-голямата част от техните облаги се върнаха назад в тяхната AI инфраструктура, добави той.

Вторият клъстер, към този момент приключен, свързва повече от 10 000 от най-модерните процесори на Nvidia със сървъри и вместилище, давайки на DeepSeek изчислителната мощ за образование огромен модел, съгласно архивираните версии на уеб страницата на компанията. Групата закупи чиповете Nvidia A100, преди Вашингтон да ограничи доставката им до Китай в средата на 2022 година

„ Винаги сме желали да организираме по-мащабни опити, тъй че постоянно сме се стремили да използваме допустимо най-вече изчислителна мощ колкото е допустимо “, сподели създателят Лианг пред китайския софтуерен уебсайт 36Kr предходната година. „ Искахме да намерим парадигма, която може изцяло да опише целия финансов пазар. “

Компанията е една от шестте китайски групи с повече от 10 000 процесора A100, което нормално се счита за изчислителен предел за самообразование огромни модели, съгласно Guosheng Securities. Останалите пет са китайски софтуерни колоси, макар че тяхната групова изчислителна мощност бледнее спрямо американските компании. Meta сподели, че ще има изчислителна мощ, равна на близо 600 000 от по-модерните H100 чипове на Nvidia до края на годината.

Тестовете, извършени от проучвателен групи, класират DeepSeek-V2 измежду най-хубавите LLMs в света. Изследователи от Университета на Ватерло в Канада го класираха измежду топ 10 модела зад GPT-4 на OpenAI, Claude на Anthropic и китайския противник 01.AI.

Лабораторията на University of Waterloo Tiger Lab 2%44,16%53,80%59,58 %Yi-голям (01.AI)57,53%33,95%54,19%62,98%Llama 2-70B (Meta)56,20%43,62%56,92%54,02%Phi-3-среден (Microsoft)55,70%37,87%57,22%52,18% DeepSeek-V2 (DeepSeek) 54,81% 31,89% 45,28% 53,66% Qwen1.5 -72B (Alibaba)52,64%36,64%55,91%52,33%MAmmoTH2 (TigerLab)50,40%33,95%50,92%50,26%Mixtral-8x7B (Mistral)43,27%29,21%44,62%36,34%Източник: Tiger Lab MMLU-Pro ранглиста Забележка: Само показан е един модел на компания и тестванията не са осъществени на всички модели

Моделът на DeepSeek също е с отворен код, което разрешава на откривателите с изкуствен интелект да ревизират структурата му и да го копират.

„ Архитектурата на модела е доста неповторима “, сподели Андрю Кар, основен академик в Cartwheel, започваща компания за анимация с изкуствен интелект, основана в Съединени американски щати. „ DeepSeek употребява тази концепция, наречена примес от специалисти, където разделяте модел на по-малки части, до прекаленост, със стотици дребни специалисти. “

Кар сподели, че моделът се приближава до най-новата Llama на Meta 3 модел, само че с по-ниска цена. Цената му е към 100 от цената на GPT-4 на OpenAI и една пета от Claude 3 Haiku на Anthropic.

Tiezhen Wang, инженер в основания в Ню Йорк проучвателен център за изкуствен интелект Hugging Face, сподели, че екипът на DeepSeek е понижил моделът трябваше да запомни, като в същото време му разреши да „ се оправя с повече задания по едно и също време, без да забавя “.

Изкуствен интелектЧетири започващи компании водят китайската конкуренция за равнене с ChatGPT на OpenAI

Вътре в Китай ценовата тактика оказа помощ за регистрирането на разработчици. Wang Zixu, програмист, основан в северен Китай, сподели, че е минал от потреблението на GPT-4 на OpenAI за помощ при шифроване към DeepSeek заради по-ниските цени.

Дори с преимуществото в цената, някои специалисти от промишлеността споделиха, че DeepSeek може губи пари на ниската си цена. Неговата изчислителна мощ също може да изостане още повече от съперниците, защото Nvidia пуска нови чипове, неразрешени за експорт в Китай.

Все отново, AI разклонението на High-Flyer се стреми да бъде първото, което ще реализира неестествен общ разсъдък, точката, в която машините имат по-големи когнитивни благоприятни условия от хората.

„ Ние имаме вяра, че AGI е буйната хубост на модел x данни x изчислителна мощ “, се споделя в една реклама за наемане на работа за DeepSeek. „ Впуснете се в „ надълбоко търсене “ с нас по пътя към AGI! “

Допълнителен репортаж от Nian Liu в Пекин

Източник: ft.com